Menu

AUGUST 30, 2023 | HUMAN GENETICS RESEARCH

Iso-Seq法は、ベンチマーク・コンソーシアム研究において他のロングリード法を凌駕

< Return to Japan blog | < Return to Main blog

Manatee social image for IsoSeq blog

 

ロングリードRNAシーケンス法と解析ツールのベンチマーク

Long-read RNA-Seq Genome Annotation Assessment Project(LRGASP)コンソーシアムは、転写産物の同定と定量化のための方法を系統的に評価するイニシアチブですが、最近、ロングリードシーケンス技術とツールの最終評価をプレプリント「Systematic assessment of long-read RNA-seq methods for transcript identification and quantification」で発表しました。コンソーシアムは、合成スパイクインRNAコントロール、異なるライブラリー調製およびシーケンスプラットフォームを含む3つの異なる生物種、細胞種、混合物のシーケンスデータを収集しました(図1)。すべてのプラットフォームとサンプルにおいて、コンソーシアムは合計4億リード以上を生成しました。

LRGASP study design
Figure 1. LRGASP study design. Three different species (human, mouse, manatee) and different library preparation methods and sequencing platforms (PacBio Sequel II system, ONT MinION, and Illumina HiSeq) were sequenced and analyzed with different software tools to assess the quality of long-read RNA-Seq data. 図1. LRGASP研究デザイン。3つの異なる生物種(ヒト、マウス、マナティー)、異なるライブラリー調製法およびシーケンスプラットフォーム(PacBio Sequel IIシステム、ONT MinION、Illumina HiSeq)でシーケンスを行い、異なるソフトウェアツールを用いて解析し、ロングリードRNA-Seqデータの質を評価した。

 

異なるライブラリー調製、シーケンス方法、ソフトウェアツールによって生成されたRNAシーケンスデータの質を評価するために、コンソーシアムはSQANTI3(ロングリードアイソフォーム分類およびQCソフトウェアツール)を使用しました。SQANTI3は、ロングリードアイソフォームを既存のアノテーション(GENCODEなど)と比較し、既知または新規の遺伝子またはアイソフォームであることを特徴付けるとともに、直交情報を用いて転写産物の5’および3’完全性を評価します。

SQANT13 transcript classification against reference annotation
Figure 2. SQANTI3 transcript classification against reference annotation. 図2. 参照アノテーションに対するSQANTI3転写産物の分類

 

Iso-Seq法は、より長く希少なアイソフォームを正確に検出

コンソーシアムは、PacBioシーケンスが最も多くの遺伝子を検出したことを明らかにしました。ロングリードRNA-Seqツールによって検出されるアイソフォームの数は大きく異なりますが、「cDNAライブラリー調製、特にPacBioとの組み合わせで、最も多くの数のFSM、NIC、NNCアイソフォームが検出されました」。一方、オックスフォード・ナノポア(ONT)のデータでは、アンチセンスやゲノミックなゲノム転写産物がより頻繁に検出されました。

さらに、標準的なIso-Seqライブラリー調製でPacBioを使用した場合が「転写産物が最も長く、発現量が有意に低い遺伝子であっても独占的に検出した実験手順であった」、としています。これは、LRGASP研究において、他の技術と比較してより多くのONTデータを収集したにもかかわらず、著者らは「より多くのリードが一貫してより多くの転写産物につながるわけではなく、リードの質と長さが転写産物の同定にとって重要な要因であることを示しています。」と観察しています。SIRV(RNAスパイクイン)対照では、PacBio Iso-Seq法が全てのSIRV転写産物を回収した唯一の方法でした。対照的に、PacBioシーケンサーを用いたCapTrap法(Cap-trapとオリゴdTプライミングを組み合わせ、5’キャップされた転写産物を捕捉するcDNAライブラリー調製法)では、長い分子の捕捉に限界が見られた。。

 

Comparison of library prep methods
Figure 3. Comparison of different library preparation methods and sequencing platforms on the WTC-11 cell line in the LRGASP study. Despite having fewer number of reads, PacBio Iso-Seq (cDNA-PacBio) method detected the most genes and found longer and rarer isoforms. 図3. LRGASP研究のWTC-11細胞株における、異なるライブラリー調製法とシーケンスプラットフォームの比較。リード数が少ないにもかかわらず、PacBio Iso-Seq (cDNA-PacBio)法が最も多くの遺伝子を検出し、より長く希少なアイソフォームを発見した。

Iso-Seq法は転写産物の定量化においてより正確

PacBioとONTのcDNAライブラリーはどちらも再現性が高く、レプリケート間で一貫性があったが、コンソーシアムは、PacBio Iso-Seq法がONT cDNAデータと比較して2倍高い存在量分解能(アイソフォームを定量する能力)を持つことを見いだしました。このことは、SIRV合成スパイクインデータにおいて、アイソフォームレベルの定量においてPacBio Iso-Seq法が他の手法よりも優れていることからも裏付けられます。全体として、コンソーシアムでは、様々なプラットフォームや条件下でロングリードRNA-Seqデータを定量するためのソフトウェアツールとしては、RSEMが最も一貫性があり、IsoQuant、IsoTools、FLAIRも高いパフォーマンスを示しました。

コンソーシアムは、ロングリードRNA-Seq法のスループットが向上するにつれて、”ロングリードベースのツールの定量精度はさらに向上する可能性が高い “と指摘しています。

 

新規アイソフォームの実験的検証はロングリードRNA-Seqの威力を示す

コンソーシアムでは、PacBioとONTのデータを用いて発見された新規アイソフォームをターゲットPCRで検証し、ソフトウェアパイプライン間で一貫して検出された新規アイソフォームの検証率は100%でした。さらに驚くべきことは、ソフトウェアパイプライン間で再現性が極めて低いアイソフォームのバリデーション率が高かったことです。これらの検証実験により、PacBioとONTによって発見された新規アイソフォームは、生物学的に実在するアイソフォームを捉えている可能性が高いことが明らかになりました。「新規アイソフォームの予測は、たとえそのようなアイソフォームがパイプラインやプラットフォーム間で一貫して予測されなくても、一般的に高い精度を持ちます。」とコンソーシアムは書いています。一方、アイソフォーム検証の成功は、そのアイソフォームがどれだけ頻繁に検出されるか、あるいはどれだけ多く検出されるかに最も関係しています。

 

将来を見据えて:バルクIso-Seq法のためのMAS-Seqによるロングリードシーケンスのスケールアップ

LRGASPコンソーシアムの研究は、長くて新規かつ希少な転写産物のアイソフォームを正確に検出し、異なるサンプル間でそれらを定量化するためのPacBio Iso-Seqデータの価値を強調しています。一方、Sequel IIシステムを用いたIso-Seqデータのスループットが低いという限界も指摘されました。MAS-Seqコンカテネーション法のスループット向上と、より高スループットのRevioシステムにより、バルクIso-SeqのためのMAS-Seqは、高品質の全長アイソフォームシーケンスのコストを大幅に削減します。

PacBio Iso-seq法とMAS-seq法については、こちらより 詳細をご覧いただけます。

 

PacBioに問い合わせる

Talk with an expert

If you have a question, need to check the status of an order, or are interested in purchasing an instrument, we're here to help.